export MASTER_ADDR=10.238.247.11  # 或者另一台机器的 IP，只要固定一个就行 # Master 节点的 IP
export MASTER_PORT=12355          # 未被占用的端口
export NCCL_SOCKET_IFNAME=enp1s0f0 # <--- 修改这里  # 节点间通信的网络接口 (根据实际情况修改)
export NCCL_DEBUG=INFO # (可选) 调试 NCCL

GPUS_PER_NODE=2 # 设置你想在每个节点上使用的 GPU 数量
NNODES=2        # 设置总节点数

torchrun \
    --nproc_per_node=$GPUS_PER_NODE \
    --nnodes=$NNODES \
    --node_rank=0 \
    --master_addr=$MASTER_ADDR \
    --master_port=$MASTER_PORT \
    multi_node_fabric.py --num_nodes $NNODES --gpus_per_node $GPUS_PER_NODE

